İstatistiksel ğrenme, Giriş

I. Ozkan

Mart, 2023

Okuma

Öğrenme Çıktıları

Anahtar Kelimeler:

Açıklayıcı ve Açıklanan (Predictors and Response, Dependent, Output) Değişkenler

\(Y=f(X)+\varepsilon\)

\(Y=f(X)+\varepsilon=Örüntü(Pattern)+Hata(Error)\)

\(f()\) Fonksiyonu

\(f()\), Tahmin Etme için

\(X=(X_1, X_2, \cdots,X_p)\) gözlemlenmiş ama \(Y\) gözlemlenmemiş olabilir. Tahmin etmek:

\(\hat Y=\hat f(X)\) çünkü \(E(\varepsilon)=0\)

\(\hat f()\)belki (kara kutu, black box) modeli olabilir. Bu durumda fonksiyonun tam yapısı önemli olmayacak, \(Y\) için tahmin gücü önemli olacaktır

İndirgenebilir/azaltılabilir (Reducible, \(\hat f()\) doğru \(f\) fonksiyonunun mükemmel tahmincisi olmaz) ve indirgenemez/azaltılamaz (irreducible) hata terimi (\(\hat f()\) neredeyse mükemmel \(f\) tahmincisi ancak, \(Y\) \(\varepsilon\)’nin fonksiyonu)

\(Y\) için Gerçek ve tahmin değerlerinin farklarının karelerinin beklenen değeri

\(E(Y-\hat Y)^2=E[f(X)+\varepsilon -\hat f(X)]^2\)

\(=\underbrace{[f(X) -\hat f(X)]^2}_{indirgenebilir} +\underbrace{Var(\varepsilon)}_{indirgenemez}\)

\(\varepsilon\); (i) ölçülmemiş değişkenleri and (ii) ölçülemez değişkenliği içerebilir

Odak, azaltılabilir hatanın farklı yöntemler/teknikler yolu ile minimize edilerek \(\hat f()\) tahmin edilmesidir

Niçin \(f()\), Çıkarım/Anlam (Inference)

Ana hedef \(X\) ve \(Y\) arasındaki ilişkinin analiz edilmesi olabilir. Bazen tahmin etmek ana hedef olmayabilir.

\(\hat f()\) yorumlanabilir olarak seçilmelidir (interpretable).

Sorular:

Çıkarım: Örnek, Reklam Verisi (Advertising Data, ISLR)

TV radio newspaper sales
230.1 37.8 69.2 22.1
44.5 39.3 45.1 10.4
17.2 45.9 69.3 9.3
151.5 41.3 58.5 18.5
180.8 10.8 58.4 12.9
8.7 48.9 75.0 7.2

– Hangi reklam medyası satışlara etki ediyor?

– En yüksek satışı artıran reklam medyası hangisi?

– TV reklamlarında bir artışa gitsek satışlarda ne kadar artış beklenebilir?

\(f\)

Parametrik Örnek (Figür 2.4 Okuma Kitabı ISLR)

Aşağıdaki figürde, gelir, income, eğitim, education, ve kıdem, seniority ilişkileri verileri ve aralarındaki gerçek ilişki gösterilmektedir:

Fig. 2.3
Fig. 2.3

Parametrik bir yönteme örnek olarak lineer bir fonksiyon düşünülebilir,

\[income=\beta_0 + \beta_1 \times education + \beta_2 \times seniority\]

Fonksiyonu tahmin ettiğimizde:

Fig. 2.4
Fig. 2.4

Parametrik olmayan Örnek (Figür 2.4 Okuma Kitabı ISLR)

Aşağıda bir parametrik olmayan yolla elde edilmiş \(f()\) fonksiyonu gösterilmektedir (Spline kullanılarak):

Fig. 2.5
Fig. 2.5

Tahmin Doğruluğu ve Model Yorumlanabilirliliği

Danışımlı ve Danışımsız Öğrenme (Supervised vs Unsupervised)

Fig 2.8
Fig 2.8

Regresyon ve Sınıflama

Modelin Tahmin Doğruluğunun Değerlendirilmesi

Modelin Parametrelerini Değerlendirilmesi

Düşük Sapma ve Düşük Değişkenlik (Low Bias, Low Variance)

Fig. 2.9
Fig. 2.9

Düşük Sapma ve Düşük Değişkenlik

Fig. 2.11
Fig. 2.11

Model Değerlendirmesi ve Model Seçimi